Previous topicNext topic
Help >
Harvesting & Nachnutzung

Harvesting & Nachnutzung

Alle  Daten, welche in PuRe freigeschaltet worden sind, stehen über verschiedene Schnittstellen offen zur Verfügung und können von externen Diensten oder interessierten Nutzern frei heruntergeladen und nachgenutzt werden.

Unter „Harvesting“ von Metadaten versteht man das systematische Sammeln und Aufbereiten von Metadaten aus Datenbanken, Repositorien und weiteren digitalen Quellen. Ermöglicht wird dieser Prozess (neben der REST-Schnittstelle ) vor allem durch eine OAI-PMH Schnittstelle. Dadurch wird die Sichtbarkeit, Auffindbarkeit und Nachnutzbarkeit der Publikationen erhöht. OAI-PMH steht für „OAI Protocol for Metadata Harvesting“.

 

Google / Suchmaschinen:

Google und Google Scholar verwenden für die Indexierung der PuRe-Inhalte vor allem sogenannte Webcrawler. Dabei sind sowohl die Sitemap, als auch sogenannte Meta-Elemente (DC und Highwire Press) in der Einzel-Ansicht jedes Datensatzes wichtig . Letztere sind sichtbar, wenn man sich in der Einzelansicht den Quellcode der Seite anzeigen lässt.

Wie oft Google beziehungsweise Google Scholar welche Bereiche harvestet, ist der MPDL nicht bekannt und es kann auch kein direkter Einfluss darauf genommen werden. Falls unerwünschter Content über PuRe in die Google-Suche geraten sollte, kann in gravierenden Fällen über den PuRe-Support ein Löschantrag bei Google beantragt werden.

 

Verschiedene externe Plattformen ziehen in regelmäßigen Abständen über OAI-PMH Inhalte aus PuRe ab. Die wichtigsten sind:

BASE: Der Bestand von PuRe auf der Plattform BASE ist sehr aktuell. Laut Website erfolgt die Ergänzung pro Datenlieferant etwa zwei mal im Monat. BASE holt dabei grob den gesamten freigeschalteten Bestand aus PuRe.

OpenAIRE: Für OpenAIRE wurde speziell eine Zertifizierung gemacht. Der Abruf-Intervall war zu dem Zeitpunkt ein mal pro Woche. Die aktuelle Intervalle liegen zurzeit nicht vor. Für OpenAIRE wird ein eigenes "Set" in OAI-PMH bereitgehalten. Dort befinden sich alle Datensätze, die entweder mindestens einen öffentlichen Volltext und eine der Inhaltskategorien „Beliebiger Volltext“, „Preprint“, „Postprint“, „Verlagsversion“ haben, oder in denen eine Grant-ID angegeben ist.

CORE: Auch CoRE (COnnecting REpositories) harvestet PuRE, jedoch variiert dabei das Zeit-Intervall. CORE arbeitet mit einem Scheduler, einer Softwarekomponente, die anhand mehrere Kriterien entscheidet, welches Repository wann geharvestet werden muss. Ein Kriterium ist beispielsweise die Größe des Repositoriums.

OpenDOAR: Registries wie OpenDOAR gehen auch über die OAI-Schnittstelle (Ermittlung der Zahl an Publikationen), speichern dabei die Publikationen selbst aber nicht ab.